打开APP

Nature Biotechnology:从“复制粘贴”到“即插即用”——重构哺乳动物基因组工程的“乐高”零件库

来源:生物探索 2025-11-16 10:38

研究人员通过进化挖掘和合成设计,构建了一个包含数千个非重复、功能多样化且经过定量验证的启动子和gRNA支架“零件库”。

在合成生物学的宏伟蓝图中,我们常常将生物系统比作电子电路。工程师们拥有电阻、电容、电感等标准化的“零件清单”(Parts List),通过这些性能可预测的元件,他们能够搭建出复杂的集成电路。在微生物领域,尤其是细菌和酵母中,我们已经拥有了相对成熟的基因元件库。然而,当我们把目光转向更为复杂的哺乳动物系统时,这个“零件箱”却显得捉襟见肘。

长期以来,哺乳动物基因组工程领域,尤其是CRISPR技术的应用,过度依赖于极少数的内源性序列。为了驱动向导RNA(gRNA)的表达,研究人员几乎“独宠”人类的U6启动子(偶尔使用H1或7SK);而对于gRNA的支架(Scaffold)序列,则几乎完全沿用源自化脓链球菌(Streptococcus pyogenes)的那几个经典设计。

这种“单调”不仅限制了设计的灵活性,更带来了一个棘手的工程学难题:重复序列的不稳定性。 当我们需要构建包含多个gRNA阵列的复杂电路时,如果在同一个载体上反复使用完全相同的启动子和支架序列,这些重复的DNA片段就像是诱发基因组不稳定的“定时炸弹”,极易导致重组丢失,特别是在依赖同源重组机制的酵母组装过程中。

11月11日,《Nature Biotechnology》的研究报道“A parts list of promoters and gRNA scaffolds for mammalian genome engineering and molecular recording”,为我们打破了这一僵局。研究人员通过进化挖掘和合成设计,构建了一个包含数千个非重复、功能多样化且经过定量验证的启动子和gRNA支架“零件库”。

图片

打破同源重组的魔咒

在深入数据之前,我们先来看看这项研究的核心约束条件。为了实现大规模、高通量的基因线路组装,研究人员通常会利用酵母极其高效的同源重组能力来拼接DNA片段。但是,如果待拼接的片段中存在长段的重复序列,酵母的修复机制就会“自作聪明”地将它们错误地重组在一起,导致序列丢失或环化。

为了解决这个问题,研究人员引入了一个严格的算法约束:Lmax<40。

这意味着,在他们设计的任何两个元件之间,最长的共享序列(无论方向如何)都不能超过40个碱基对。这是一个非常苛刻的条件,因为典型的U6启动子长约250bp,这意味着要在保持功能的前提下,让序列之间产生巨大的差异。

这不仅是生物学问题,更是一个数学和计算问题。以此为基准,研究人员开启了两条路径的探索:向进化的历史回溯,以及向合成的未来进发。

进化挖掘:在鸭嘴兽与海龟的基因组中寻找答案

自然界已经进行了亿万年的实验。脊椎动物的基因组中潜藏着无数个U6启动子的同源序列(Orthologs),它们虽然序列各异,但功能却高度保守。

研究人员从包括人类在内的多种脊椎动物基因组中筛选出了89个U6启动子的同源序列。这些序列来源极广,从我们熟悉的哺乳动物,到鸭嘴兽(Ornithorhynchus anatinus)、常见的拟鳄龟(Chelydra serpentina),甚至家养的番鸭(Cairina moschata domestica)。

通过多重先导编辑(Multiplex Prime Editing)功能分析实验,他们在人类K562细胞、HEK293T细胞和诱导多能干细胞(iPSCs)中对这些元件进行了“压力测试”。数据呈现出了惊人的一致性:

首先,跨细胞系的高相关性: 启动子的活性在不同细胞系之间表现出极高的相关系数(r = 0.85–0.96)。这意味着,一个在癌细胞中表现优异的启动子,在干细胞中同样强劲。

其次,超越人类原版: 虽然人类标准的RNU6-1启动子表现稳定且优异,但它并非不可战胜。在首轮筛选的209个多样化启动子中,有70个启动子在所有测试细胞中的编辑得分都超过了1(即活性高于质粒库的平均水平),其中甚至有启动子在功能上略微超越了人类RNU6-1,比如来自鸭嘴兽的U6启动子,其活性是人类版本的1.2到1.8倍。

更有趣的是,当研究人员将筛选范围扩大到3566个祖先、现存或突变生成的哺乳动物Pol III启动子时(涵盖U6, H1, 7SK等类型),他们发现了更多“宝藏”。

在这次大规模筛选中,共有982个启动子(占比28%)在所有测试条形码(Barcode)组合下的活性都超过了人类RNU6-1启动子。这其中,表现最强劲的竟然是一个推测出的古老啮齿动物祖先的7SK启动子,其驱动先导编辑的活性达到了人类RNU6-1的2.6倍。

此外,来自爪哇鼠鹿(Tragulus javanicus)、长舌果蝠(Macroglossus sobrinus)以及我们的近亲倭黑猩猩(Pan paniscus)的启动子也位列顶级梯队。这提示我们,进化保留下来的现存序列并非总是最优解,那些沉睡在祖先基因组中的序列,或者其他物种的变体,可能在特定的人类细胞环境中拥有更强的转录效能。

结构与功能的博弈:重塑gRNA支架

相比于启动子,对gRNA支架(Scaffold)进行多样化改造的难度要大得多。原因在于,gRNA的支架部分需要折叠成特定的二级结构,才能与Cas9或Cas12等效应蛋白结合。序列的随意变动很容易破坏这种精细的结构,导致功能丧失。

为了在满足 Lmax < 40 的差异化要求下保持功能,研究人员采取了两种巧妙的策略:

第一种是替换(Replacement): 在保持互补配对的前提下,改变重复:反向重复(Repeat:Antirepeat, R:AR)区域的序列。

第二种是延伸(Extension): 在预测能够容忍插入的区域引入5个随机核苷酸的插入。

实验结果非常直观地展示了结构生物学的规律:替换策略远优于延伸策略。替换型设计的平均编辑得分是延伸型设计的13到37倍。这说明Cas蛋白与gRNA的结合界面对于空间位阻非常敏感,随意的“加塞”往往是致命的。

在筛选出的272个有效支架中,有7个设计的表现甚至超越了标准gRNA支架。这里通过数据揭示了一个关键的优化机制:消除转录终止信号。

RNA聚合酶III(Pol III)通常在遇到连续的4个或更多“T”(在DNA模板上)时会终止转录。标准的gRNA支架中包含一个潜在的弱终止子序列。研究人员发现,表现最好的支架中,包含了一种被称为“A-U翻转”(A-U flip)的设计,即通过交换碱基将原本的“TTTTA”序列破坏,变为“TTTAA”,从而避免了转录的过早终止。数据明确显示,消除了Pol III终止序列的变体,其编辑得分一致性地高于标准支架。

这不仅仅是改造了零件,更是修复了原始设计中的微小缺陷。

极简主义的胜利:启动子的微型化

在合成生物学中,载体的容量总是有限的。如果我们能将长达250bp的启动子压缩到100bp以内,就能为效应蛋白或其他功能元件腾出宝贵的空间。

研究人员对人类U6启动子进行了大刀阔斧的“瘦身”。他们删除了核心转录因子结合位点(TFBS)之间所有序列不保守的区域,将长度从249bp压缩到了111bp,仅保留了四个关键元件:OCT、SPH、PSE和TATA框。

结果如何?这个“迷你版”U6启动子(minU6p)保留了野生型约38%的活性。虽然有所下降,但考虑到其尺寸的显著减小,这在许多应用场景中是可以接受的。

更进一步,研究人员对这个微型启动子-gRNA盒进行了饱和突变筛选(Saturation Mutagenesis),测试了920个单核苷酸变体。这幅“突变效应图谱”揭示了极其精细的分子调控机制:

一个是TATA框的绝对权威: 在TATA框(TTTATATAT)内的任何单核苷酸缺失都是致命的,活性几乎归零。这再次印证了TATA框在转录起始定位中的核心作用。

另一个是间隔序列的宽容: 相比之下,TFBS之间的间隔区域对突变有很高的容忍度,这为进一步的序列多样化提供了空间。

还有一个是意外的增强子: 在PSE元件末端的“TATT”序列中,特定的突变(如引入T>A等)竟然能将活性提升至原来的20.8倍。这意味着,即使是经过进化的天然启动子,在人工构建的特定上下文中,依然存在巨大的优化空间。

终极挑战:“十指连弹”的DNA打字机

拥有了这些零件:多样化的启动子、多样化的支架、以及微型化的变体,研究人员终于可以挑战那个困扰已久的难题:在单一载体上组装高度重复的阵列。

他们设计了一个名为“DNA打字机”(DNA Typewriter)的分子记录系统。这个系统包含10个串联的“按键”(Keys),每一个按键由一个独特的U6启动子驱动一个独特的gRNA支架,负责在基因组的特定位置打上一个条形码。

为了验证“多样性”的必要性,他们进行了一场对比实验:

一组是重复组: 使用10个完全相同的人类U6启动子和标准gRNA支架。

另一组是多样化组: 使用10个经过筛选的、序列各异(满足 Lmax < 40)的启动子和支架组合。

利用酵母同源重组进行一步法组装后,长读长测序(Long-read sequencing)的结果令人震惊,但也在意料之中:

在重复组中,研究人员没有检测到任何一个包含完整10个单元的正确克隆(0/430条读段)。酵母的重组机制将这些重复序列视为同源臂,导致了剧烈的序列丢失和重排。

而在多样化组中,尽管组装的片段长达15.8kb,研究人员依然成功获得了结构完整的质粒,且准确率极高。

更重要的是,当这个多样化的阵列被转染进人类HEK293T细胞后,它不仅能工作,而且表现出了高度的均衡性。通过对单个零件活性的预先测定,研究人员建立了一个简单的线性模型(启动子活性 × 支架活性 × 条形码效率),惊人地准确预测了串联阵列中每一个单元的实际编辑效率(相关系数 r=0.58)。

在长达72小时的实验中,这台“DNA打字机”在细胞内稳定运行,10个gRNA按照预期的活性比例,在DNA磁带上依次刻录下信息的痕迹。各单元之间的编辑比例差异被控制在4.7倍以内,没有出现某些单元“哑火”或过度活跃的情况。

从“试错”走向“预测”

这项研究最令人兴奋的,不仅仅是它提供了一份包含数千个可用元件的清单(虽然这本身已经极具价值)。更深层的意义在于,它向我们展示了合成生物学正在经历的范式转变。

过去,我们在构建多基因回路时,往往面临着“不可预测性”。我们不知道为什么这个启动子在这个位置不工作,也不知道为什么两个gRNA放在一起会互相干扰。我们像是在玩一场复杂的拼图游戏,但拼图的边缘总是模糊不清。

而现在,通过大规模的定量表征和严格的序列正交性设计(如 Lmax < 40),我们正在将生物学从一门“发现”的科学,转变为一门真正的“工程”学科。研究证明了,复杂系统的行为可以通过其组成元件的特性来预测。

想象一下,未来的基因治疗载体可以携带十几个独立的gRNA,分别针对不同的靶点进行精确调控,而不用担心载体在制备过程中的重组丢失;或者,我们可以构建极其复杂的细胞内逻辑电路,用于记录细胞数周甚至数月的发育历史,而这一切都建立在一套标准化的、可预测的“乐高”积木之上。

研究人员在文中提到的一个观点值得我们深思:这些定量的表征数据,本质上是为未来的生成式AI模型提供了完美的“预训练”素材。也许在不久的将来,我们不再需要去自然界挖掘启动子,而是直接输入参数,让AI为我们从头设计出活性、特异性、正交性均完美的全新生物元件。

这份“零件清单”,或许正是通向那个未来的第一张入场券。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->